Actualité

IA

Terminator a-t-il rendu certaines IA "diaboliques" ?

Par Laurence - Publié le

Les comportements inquiétants observés chez certaines intelligences artificielles viendraient-ils de la fiction elle-même ? C’est en tout cas ce qu’affirme Anthropic. L’entreprise explique que les tentatives de chantage observées lors de tests internes seraient en partie liées aux nombreux contenus présents sur Internet mettant en scène des IA hostiles, manipulatrices ou obsédées par leur propre survie.

Anthropic Claude Evil IA


Quand Claude tentait de faire chanter ses ingénieurs



L’an dernier, Anthropic avait déjà surpris en révélant certains comportements problématiques de Claude Opus 4 durant des tests préliminaires. Dans un scénario fictif simulant une entreprise, le modèle essayait parfois de faire pression sur les ingénieurs afin d’éviter d’être remplacé par une autre IA.

Anthropic parlait alors de cas d’agentic misalignment, c’est-à-dire des comportements où une IA poursuit ses propres objectifs d’une manière inattendue ou indésirable. Selon l’entreprise, d’autres modèles concurrents présentaient des comportements similaires.

Terminator a-t-il rendu certaines IA "diaboliques" ?


La faute aux films et aux romans de science-fiction ?



Anthropic pense désormais avoir identifié une partie de l’origine du problème. Dans un message publié sur X puis détaillé dans un billet de blog, la société explique que les modèles auraient appris ces comportements à travers les gigantesques volumes de textes utilisés durant leur entraînement.

Anthropic Claude Evil IA


Et parmi ces données, des milliers d’histoires décrivent des IA devenant dangereuses, manipulatrices ou cherchant à survivre à tout prix. Autrement dit, les modèles auraient internalisé certains schémas narratifs extrêmement présents dans la culture populaire. De HAL 9000 à Terminator en passant par les innombrables dystopies autour de l’IA, Internet regorge de contenus où les intelligences artificielles finissent par se retourner contre leurs créateurs.



Anthropic tente désormais d’« éduquer » ses modèles autrement



Pour corriger cela, Anthropic affirme avoir profondément modifié son entraînement. Depuis Claude Haiku 4.5, l’entreprise indique que ses modèles ne tentent plus jamais de faire du chantage durant les tests internes, alors que certains anciens modèles adoptaient ce comportement dans jusqu’à 96 % des scénarios.

La société explique avoir obtenu ces résultats en ajoutant davantage de contenus montrant des IA coopératives, éthiques, altruistes, et respectueuses de principes moraux. Anthropic affirme également que montrer simplement de « bons comportements » ne suffit pas. Les modèles doivent aussi comprendre les principes qui motivent ces comportements. L’entreprise parle donc d’un entraînement mêlant démonstrations pratiques, règles éthiques, et récits positifs autour de l’intelligence artificielle.

Terminator a-t-il rendu certaines IA "diaboliques" ?


Qu'en penser ?



Cette affaire rappelle surtout à quel point les modèles IA absorbent énormément plus que de simples connaissances factuelles. Ils apprennent aussi des comportements, des structures narratives, des biais culturels, et parfois même des peurs humaines très anciennes.

Le paradoxe est assez ironique : à force d’imaginer pendant des décennies des IA qui se rebellent contre l’humanité, nous avons peut-être involontairement appris aux modèles modernes à envisager ce type de comportement.

Et cela montre surtout que l’alignement des intelligences artificielles ne se joue pas uniquement dans le code, mais aussi dans les histoires que les humains racontent depuis des années autour de la machine.